การพัฒนาของภาษาธรรมชาติ (NLP) แสดงถึงการเปลี่ยนแปลงเชิงหลักที่มีความสำคัญ ซึ่งเปลี่ยนจากการมองภาษาเป็นสัญลักษณ์ที่แยกจากกันและไม่เกี่ยวข้อง มาเป็นการแทนที่โดยเวกเตอร์ในพื้นที่หลายมิติอย่างต่อเนื่อง เราได้ก้าวไกลจาก การแทนที่ตามลักษณะเฉพาะ ไปสู่แผนที่ทางความหมายที่ลึกซึ้ง
การเปลี่ยนแปลงในการแทนที่
- ยุคสถิติ (แบบกระจาย): ช่วงเริ่มต้นของภาษาธรรมชาติ (NLP) อาศัยอัลกอริธึม TF-IDF แม้ว่าจะมีประสิทธิภาพในการค้นหา แต่ก็มีปัญหาเรื่อง 'ภัยคุกคามของการกระจาย' ในระบบ TF-IDF คำว่า 'แพทย์' และ 'หมอ' จะเป็นเวกเตอร์ที่ตั้งฉากกันทางคณิตศาสตร์ จึงไม่มีความสัมพันธ์ใด ๆ กันเลย
- ปฏิวัติแบบกระจาย (โมเดลภาษาที่ใช้เครือข่ายประสาทเทียม และ Word2Vec): โมเดลภาษาที่ใช้เครือข่ายประสาทเทียมได้นำเสนอเวกเตอร์แบบหนาแน่น คำว่า Word2Vec (Skip-gram/CBOW) เรียนรู้ว่าคำที่ปรากฏในบริบทใกล้เคียงกันควรจะอยู่ใกล้กันในพื้นที่
- สถิติทั่วทั้งเอกสาร (GloVe): ตัวแปรทั่วทั้งเอกสาร (GloVe) ช่วยลดช่องว่างโดยการวิเคราะห์การปรากฏร่วมกันในทั้งเอกสารทั้งหมด เพื่อให้มั่นใจว่าระยะห่างสะท้อนความคล้ายคลึงทางความหมายในเชิงคณิตศาสตร์
ความเข้าใจเชิงลึก
การเปลี่ยนจากนับจำนวนมาเป็นการคาดการณ์บริบท ทำให้โมเดลสามารถจับความละเอียดอ่อนได้ แนวคิด 'การแทนที่แบบกระจาย' หมายความว่า ความหมายของคำหนึ่งคำถูกกระจายไปยังมิติเวกเตอร์หลายร้อยมิติ แต่ละมิติอาจแทนคุณสมบัติทางความหมายแฝง เช่น เพศ สถานะราชวงศ์ หรือบริบททางการแพทย์